偏度 (Skewness) – 是什么以及为什么?
作者:Ruben Geert van den Berg,出自 Statistics A-Z
偏度(Skewness)是一个数值,用于衡量变量分布的不对称程度。
- 正(右)偏度示例
- 负(左)偏度示例
- 总体偏度 – 公式和计算
- 样本偏度 – 公式和计算
- SPSS 中的偏度
- 偏度 – 对数据分析的影响
正(右)偏度示例
一位科学家让 1000 人完成了一些心理测试。对于测试 5,测试分数的偏度 = 2.0。这些分数的直方图如下所示。
直方图显示了一个非常不对称的频率分布。大多数人的得分都在 20 分或以下,但右尾延伸到 90 左右。这种分布是右偏的。 如果我们沿着 x 轴向右移动,我们会从 0 到 20 到 40 分等等。因此,在图的右侧,分数变得更加正向。因此,右偏度是正偏度,这意味着偏度 > 0。第一个示例的偏度 = 2.0,如图右上角所示。这些分数是强烈正偏的。
负(左)偏度示例
另一个变量——测试 2 的分数——结果显示偏度 = -1.0。它们的直方图如下所示。
大部分分数在 60 到 100 左右。但是,左尾被拉伸了一些。因此,这种分布是左偏的。 向左看,向左看。如果我们向左沿着 x 轴移动,我们会朝着更负的分数移动。这就是为什么左偏度是负偏度。事实上,这些分数的偏度 = -1.0。它们的分布是左偏的。然而,它比第一个示例(偏度 = 2.0)的偏度小,或者说更对称。
对称分布意味着零偏度
最后,对称分布的偏度 = 0。测试 3 的分数——偏度 = 0.1——接近这一点。
现在,观察到的分布很少是精确地对称的。这主要见于一些理论抽样分布。一些例子是:
这些分布都是完全对称的,因此偏度为 0.000…
总体偏度 – 公式和计算
如果您想计算一个或多个变量的偏度,只需将计算交给一些软件即可。但是——为了完整起见——我仍然会列出公式。 如果您的数据包含整个总体,则将总体偏度计算为: \[Population\;skewness = \Sigma\biggl(\frac{X_i - \mu}{\sigma}\biggr)^3\cdot\frac{1}{N}\] 其中
- \(X_i\) 是每个单独的分数;
- \(\) 是总体均值;
- \(\) 是总体标准差,以及
- \(N\) 是总体大小。
有关使用此公式的示例计算,请参见此 Google 表格(如下所示)。
它还显示了如何通过使用 =SKEW.P(…) 直接获得总体偏度,其中“.P”表示“总体(population)”。这证实了我们手动计算的结果。遗憾的是,SPSS 和 JASP 都不计算总体偏度:两者都仅限于样本偏度。
样本偏度 – 公式和计算
如果您的数据包含来自某个总体的简单随机样本,请使用: \[Sample\;skewness = \frac{N\cdot\Sigma(X_i - \overline{X})^3}{S^3(N - 1)(N - 2)}\] 其中
- \(X_i\) 是每个单独的分数;
- \(\) 是样本均值;
- \(S\) 是样本标准差,以及
- \(N\) 是样本大小。
示例计算显示在此 Google 表格中(如下所示)。
获得样本偏度的一个更简单的选项是使用 =SKEW(…),它证实了我们手动计算的结果。
SPSS 中的偏度
首先,SPSS 中的“偏度(skewness)”始终指的是样本偏度:它悄悄地假设您的数据包含一个样本而不是整个总体。有很多选择可以获得它。我最喜欢的是通过 MEANS,因为语法和输出干净而简单。以下屏幕截图将指导您完成。
语法可以像 means v1 to v5 /cells skew.
一样简单。 一个非常完整的表——包括均值、标准差、中位数等——可以通过 means v1 to v5 /cells count min max mean median stddev skew kurt.
运行。结果如下所示。
偏度 – 对数据分析的影响
许多分析——ANOVA (方差分析)、t 检验、回归等——都需要正态性假设:变量在总体中应呈正态分布。正态分布的偏度为 0。因此,在某些样本数据中观察到明显的偏度表明正态性假设被违反。
对于大样本量——比如 N > 20 或 25 左右——这种违反正态性的情况不成问题。在这种情况下,大多数检验对于这种违反是稳健的。这是由于中心极限定理。简而言之,对于大样本量,偏度对于统计检验不是真正的问题。然而,偏度通常与大的标准差相关联。这些可能导致大的标准误差和低的统计功效。因此,明显的偏度可能会降低拒绝某个零假设以证明某种效果的可能性。在这种情况下,非参数检验可能是一个更明智的选择,因为它可能具有更大的功效。
违反正态性确实会对**_小_样本量**(比如 N < 20 左右)构成真正的威胁。对于小样本量,许多检验对于违反正态性假设不稳健。解决方案——再一次——是使用非参数检验,因为这些检验不需要正态性。
最后但并非最不重要的一点是,没有任何统计检验可以检验总体偏度是否 = 0。检验这一点的间接方法是正态性检验,例如:
然而,当真正需要正态性时——对于小样本量——此类检验的功效较低:即使偏离正态性严重,它们也可能无法达到统计显著性。因此,它们主要为您提供一种虚假的安全感。
我想大概就是这些了。如果您有任何意见——无论是正面的还是负面的——请在下面发表评论。我们确实喜欢进行一些讨论。
感谢您的阅读!